15 research outputs found

    Enhancing Translation Language Models with Word Embedding for Information Retrieval

    Full text link
    In this paper, we explore the usage of Word Embedding semantic resources for Information Retrieval (IR) task. This embedding, produced by a shallow neural network, have been shown to catch semantic similarities between words (Mikolov et al., 2013). Hence, our goal is to enhance IR Language Models by addressing the term mismatch problem. To do so, we applied the model presented in the paper Integrating and Evaluating Neural Word Embedding in Information Retrieval by Zuccon et al. (2015) that proposes to estimate the translation probability of a Translation Language Model using the cosine similarity between Word Embedding. The results we obtained so far did not show a statistically significant improvement compared to classical Language Model

    Ripple: Concept-Based Interpretation for Raw Time Series Models in Education

    Full text link
    Time series is the most prevalent form of input data for educational prediction tasks. The vast majority of research using time series data focuses on hand-crafted features, designed by experts for predictive performance and interpretability. However, extracting these features is labor-intensive for humans and computers. In this paper, we propose an approach that utilizes irregular multivariate time series modeling with graph neural networks to achieve comparable or better accuracy with raw time series clickstreams in comparison to hand-crafted features. Furthermore, we extend concept activation vectors for interpretability in raw time series models. We analyze these advances in the education domain, addressing the task of early student performance prediction for downstream targeted interventions and instructional support. Our experimental analysis on 23 MOOCs with millions of combined interactions over six behavioral dimensions show that models designed with our approach can (i) beat state-of-the-art educational time series baselines with no feature extraction and (ii) provide interpretable insights for personalized interventions. Source code: https://github.com/epfl-ml4ed/ripple/.Comment: Accepted as a full paper at AAAI 2023: 37th AAAI Conference on Artificial Intelligence (EAAI: AI for Education Special Track), 7-14 of February 2023, Washington DC, US

    MultiModN- Multimodal, Multi-Task, Interpretable Modular Networks

    Full text link
    Predicting multiple real-world tasks in a single model often requires a particularly diverse feature space. Multimodal (MM) models aim to extract the synergistic predictive potential of multiple data types to create a shared feature space with aligned semantic meaning across inputs of drastically varying sizes (i.e. images, text, sound). Most current MM architectures fuse these representations in parallel, which not only limits their interpretability but also creates a dependency on modality availability. We present MultiModN, a multimodal, modular network that fuses latent representations in a sequence of any number, combination, or type of modality while providing granular real-time predictive feedback on any number or combination of predictive tasks. MultiModN's composable pipeline is interpretable-by-design, as well as innately multi-task and robust to the fundamental issue of biased missingness. We perform four experiments on several benchmark MM datasets across 10 real-world tasks (predicting medical diagnoses, academic performance, and weather), and show that MultiModN's sequential MM fusion does not compromise performance compared with a baseline of parallel fusion. By simulating the challenging bias of missing not-at-random (MNAR), this work shows that, contrary to MultiModN, parallel fusion baselines erroneously learn MNAR and suffer catastrophic failure when faced with different patterns of MNAR at inference. To the best of our knowledge, this is the first inherently MNAR-resistant approach to MM modeling. In conclusion, MultiModN provides granular insights, robustness, and flexibility without compromising performance.Comment: Accepted as a full paper at NeurIPS 2023 in New Orleans, US

    Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale

    No full text
    This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice.In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR : (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency.We focused on three types of prior knowledge to address the limitations mentioned above : (1) knowledge from a semi-structured resource : Wikipedia ; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri ; (3) knowledge from unstructured text.At first, we propose WIKIR : an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.Ce travail de thèse se situe dans les domaines de la recherche d’information RI) textuelle et de l’apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l’utilisation de réseaux de neurones en RI textuelle s’est révélée efficace sous certaines conditionsmais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.Dans ce travail de thèse, nous proposons d’étudier l’incorporation de connaissances a priori pour aborder 3 limitations de l’utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées ; (2) les représentations du texte sont basées uniquement sur des analyses statistiques ; (3) le manque d’efficience.Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus : (1) des connaissances issues d’une ressource semi-structurée : Wikipédia ; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus ; (3) des connaissances issues de texte non structurées.Dans un premier temps, nous proposons WIKIR : un outil libre d’accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L’intégration de ressources sémantiques aux réseaux de neurones leur permet d’atteindre de meilleures performances pour la recherche d’information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l’efficience des modèles de référence de RI n’utilisant pas d’apprentissage

    Connaissances a priori pour la Recherche d'Information textuelle basée sur l'apprentissage profond

    No full text
    This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice.In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR: (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency.We focused on three types of prior knowledge to address the limitations mentioned above: (1) knowledge from a semi-structured resource: Wikipedia; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri; (3) knowledge from unstructured text.At first, we propose WIKIR: an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.Ce travail de thèse se situe dans les domaines de la recherche d'information (RI) textuelle et de l'apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l'utilisation de réseaux de neurones en RI textuelle s'est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.Dans ce travail de thèse, nous proposons d'étudier l'incorporation de connaissances a priori pour aborder 3 limitations de l'utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées, (2) les représentations du texte sont basées uniquement sur des analyses statistiques, (3) le manque d'efficience.Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus: (1) des connaissances issues d'une ressource semi-structurée : Wikipédia; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus; (3) des connaissances issues de texte non structurées.Dans un premier temps, nous proposons WIKIR : un outil libre d'accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L'intégration de ressources sémantiques aux réseaux de neurones leur permet d'atteindre de meilleures performances pour la recherche d'information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l'efficience des modèles de référence de RI n'utilisant pas d'apprentissage

    Prior Knowledge for Deep learning-based Textual Information Retrieval

    No full text
    Ce travail de thèse se situe dans les domaines de la recherche d'information (RI) textuelle et de l'apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l'utilisation de réseaux de neurones en RI textuelle s'est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique.Dans ce travail de thèse, nous proposons d'étudier l'incorporation de connaissances a priori pour aborder 3 limitations de l'utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées, (2) les représentations du texte sont basées uniquement sur des analyses statistiques, (3) le manque d'efficience.Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus: (1) des connaissances issues d'une ressource semi-structurée : Wikipédia; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus; (3) des connaissances issues de texte non structurées.Dans un premier temps, nous proposons WIKIR : un outil libre d'accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L'intégration de ressources sémantiques aux réseaux de neurones leur permet d'atteindre de meilleures performances pour la recherche d'information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l'efficience des modèles de référence de RI n'utilisant pas d'apprentissage.This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice.In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR: (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency.We focused on three types of prior knowledge to address the limitations mentioned above: (1) knowledge from a semi-structured resource: Wikipedia; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri; (3) knowledge from unstructured text.At first, we propose WIKIR: an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models

    Combining Subword information and Language model for Information Retrieval

    Get PDF
    International audienceInformationRetrieval(IR)classicallyreliesonseveralprocessestoimproveperfor- mance of language modeling approaches. When considering semantic of words, Neural Word Embeddings (Mikolov et al., 2013) have been shown to catch semantic similarities between words. Such Distributed Representations represent terms in a dense vector space are efficiently learned from large corpora. Lately, they have been used to compute the translation probabilities between terms in the Neural Translation Language Model (NTLM) (Zuccon et al., 2015) frame- work for Information Retrieval in order to deal with the vocabulary mismatch issue. In this work, we propose to test this model with recent vectorial representations (Bojanowski et al., 2016) that take into account the internal structure of words.En recherche d'information, certains procédés sont utilisés pour améliorer les performances des modèles de langue. Lorsque l'on considère la sémantique des mots, il a été montré que les plongements de mots neuronaux capturent des similarités sémantiques entre les mots (Mikolov et al., 2013). De telles représentations distribuées qui plongent les mots dans un espace vectoriel dense sont apprises de façon efficace sur de grandes collections. Récem-ment, elles ont été utilisées pour calculer les probabilités de traduction entre termes dans le cadre des modèles de langue neuronaux (Zuccon et al., 2015) pour la recherche d'information afin de gérer le problème de la disparité des termes. Dans cet article, nous proposons d'uti-liser de nouvelles représentations distribuées qui prennent en compte la structure interne des mots (Bojanowski et al., 2016) dans le cadre des modèles de langue neuronaux

    Knowledge Based Transformer Model for Information Retrieval

    No full text
    International audienceVocabulary mismatch is a frequent problem in information retrieval (IR). It can occur when the query is short and/or ambiguous but also in specialized domains where queries are made by non-specialists and documents are written by experts. Recently, vocabulary mismatch has been addressed with neural learning-to-rank (NLTR) models and word embeddings to avoid relying only on the exact matching of terms for retrieval. Another approach to vocabulary mismatch is to use knowledge bases (KB) that can associate different terms to the same concept. Given the recent success of transformer encoders for NLP, we propose KTRel: a NLTR model that uses word embeddings, Knowledge bases and Transformer encoders for IR

    Modèle Transformer à base de Connaissances pour la Recherche d'Information dans des Domaines Spécialisés

    No full text
    International audienceLe problème de la disparité des termes (term mismatch) occure fré-quement en recherche d'information (RI). Il peut se produire lorsque la requête est courte et/ou ambiguë mais aussi dans des domaines spécialisés où les re-quêtes sont effectuées par des non-spécialistes et les documents sont rédigés par des experts. Récemment, le problème de disparité des termes a été abordé à l'aide de modèles neuronaux d'apprentissage de classement (Neural Learning-To-Rank) et de plongements de mots pour éviter d'utiliser uniquement la corres-pondance exacte des termes pour la recherche. Une autre approche au problème de la disparité des termes consiste à utiliser des bases de connaissances (Know-ledge Bases) qui peuvent associer différents termes au même concept. Compte tenu du succès récent des encodeurs de type transformers en traitement auto-matique du language naturel (TALN), nous proposons KTRel : un modèle de type Neural Learning-To-Rank (NLTR) qui utilise des plongements de mots, des plongements de bases de connaissances et des encodeurs transformers pour la RI dans des domaines spécialisés. Dans cet article, nous évaluons KTRel sur une tâche de RI médicale
    corecore